home *** CD-ROM | disk | FTP | other *** search
/ Internet Surfer 2.0 / Internet Surfer 2.0 (Wayzata Technology) (1996).iso / pc / textfile / faqs / wais_faq / server_b
Encoding:
Internet Message Format  |  1992-12-27  |  4.3 KB

  1. Xref: bloom-picayune.mit.edu comp.infosystems.wais:526 news.answers:3347
  2. Path: bloom-picayune.mit.edu!snorkelwacker.mit.edu!eff!sol.ctr.columbia.edu!spool.mu.edu!nigel.msen.com!nigel.msen.com!not-for-mail
  3. From: emv@msen.com (Edward Vielmetti)
  4. Newsgroups: comp.infosystems.wais,news.answers
  5. Subject: WAIS FAQ part 5 of n: Building a WAIS server
  6. Date: 5 Oct 1992 15:52:02 -0400
  7. Organization: Msen, Inc. -- Ann Arbor, Michigan
  8. Lines: 76
  9. Approved: emv@msen.com (Edward Vielmetti)
  10. Message-ID: <1aq6dgINN2tr@nigel.msen.com>
  11. NNTP-Posting-Host: nigel.msen.com
  12.  
  13. Archive-name: wais-faq/server-basics
  14.  
  15. This is a first pass at a "frequently asked questions" series for WAIS.
  16.  
  17. Part 5 of this FAQ is an overview of the steps you need to take to
  18. build a WAIS server of your own.  (Parts 1-4 and 5-n are not yet
  19. written, but are in progress, albeit slowly).
  20.  
  21. The basic set of steps is:
  22.  
  23. Select the data you want to serve.  This may be as simple as "all
  24.   of the mail in my inbox folder" or as complicated as "all of the
  25.   really *good* articles posted to the net in the last year".  You may
  26.   need to do some OCR'ing or some typing to get this step taken care of.
  27.   
  28. Ensure that you can keep an up to date copy of it on your site.  
  29.   If you are the original producer of the information this may be easy;
  30.   if it's stored on a remote ftp site then alex or mirror or ftpget can
  31.   keep it in sync; or if it's broadcast out as netnews the netnews 
  32.   CD-ROMs or "rkive" will do the trick.
  33.   
  34. Munge it into a format that the WAIS indexer will understand, or 
  35.   write code that will do the indexing on the format you have.  It's
  36.   relatively straightforward to index things one file, mail message,
  37.   news article, paragraph, line, or dash-separated piece at a time.
  38.   There is a weak spot in the documentation as to what formats are
  39.   supported right out of the box; if your data is complicated this might
  40.   be a fair amount of work to get "right".
  41.  
  42. Index the data with "waisindex".  Be sure to note the "-mem" option if
  43.   you have a small-ish machine, the "-stdin" option if you have a lot
  44.   of files scattered all over the place, and so on. 
  45.  
  46. Buy some more disk drives, you will need them.
  47.  
  48. Test the indexes you have to see that they answer the questions you want
  49.   to answer.  If you get rotten results you might have rotten data, or
  50.   out of date or incomplete data, or files that are broken down into bits
  51.   that are too big or too small, or too much redundant text so that 
  52.   queries are hard to pick out differences in small details.  Go back
  53.   to the "munge" step or even the "select" step if all is not well here.
  54.  
  55. Edit the resulting ".src" file you get so that it includes the proper
  56.   name of your system, a nice wordy description of what all people can
  57.   expect to find in the database, and some examples of good questions.
  58.   These are all finder's aids which will help your users use your database.
  59.   Make a note of where you got the original data if that is not apparent.
  60.  
  61. Arrange for a "waisserver" daemon to be started up out of your
  62.   /etc/rc.local file so that the index is available all of the time.
  63.   Alternatively, add an entry to /etc/inetd.conf and to /etc/services
  64.   so that you can bring up WAIS out of inetd. Take note of the -e
  65.   option so that you can put log files in a safe place.
  66.  
  67. Search the wais directory of servers to make sure no one else is doing the
  68.   exact same thing, or if they are get in touch with them to collaborate.
  69.  
  70. Send the .src file into "wais-directory-of-servers@think.com" so that it
  71.   can be included in the master directory.  Post an announcement to this
  72.   newsgroup so people can quiz you about it or so that they know about
  73.   new stuff.
  74.  
  75. Trim the log files that WAIS generates so that you can avoid filling up the
  76.   disk that you just bought and so that you can see what it is that
  77.   people are asking of your servers.  Remember that there are privacy
  78.   considerations involved.
  79.  
  80. I think this just about does it.  There ends up being a fair amount of
  81. other stuff you might find useful to know in the course of bringing up
  82. a server - certainly a working knowlege of news servers, perl, make, cron,
  83. C, yacc or lex, and shell scripts would not hurt in the slightest.
  84. It could be made easier to do I'm sure, though I suspect that building
  85. a good index is still art and not yet science.
  86.  
  87. Edward Vielmetti, vice president for research, MSEN Inc. emv@msen.com
  88.       MSEN Inc., 628 Brooks, Ann Arbor MI  48103 +1 313 998 4562
  89.